智能论文笔记

TorchXRayVision: A library of chest X-ray datasets and models

Joseph Paul Cohen , Joseph D. Viviano , Paul Bertin , Paul Morrison , Parsa Torabian , Matteo Guarrera , Matthew P Lungren , Akshay Chaudhari , Rupert Brooks , Mohammad Hashir

分类：人工智能 | 计算机视觉

2021-10-31

TorchXrayVision是一个开源软件库，用于使用胸部X射线数据集和深度学习模型。它为广泛的公共可公共胸部X射线数据集提供了一个通用的接口和通用预处理链。此外，通过库培训具有不同架构的许多分类和表示模型，通过库可获得不同的数据组合，以用作基线或特征提取器。

translated by 谷歌翻译

Architectural Implications of Embedding Dimension during GCN on CPU and GPU

Matthew Adiletta , David Brooks , Gu-Yeon Wei

分类：机器学习

2022-12-01

Graph Neural Networks (GNNs) are a class of neural networks designed to extract information from the graphical structure of data. Graph Convolutional Networks (GCNs) are a widely used type of GNN for transductive graph learning problems which apply convolution to learn information from graphs. GCN is a challenging algorithm from an architecture perspective due to inherent sparsity, low data reuse, and massive memory capacity requirements. Traditional neural algorithms exploit the high compute capacity of GPUs to achieve high performance for both inference and training. The architectural decision to use a GPU for GCN inference is a question explored in this work. GCN on both CPU and GPU was characterized in order to better understand the implications of graph size, embedding dimension, and sampling on performance.

translated by 谷歌翻译

Correlated Feature Aggregation by Region Helps Distinguish Aggressive from Indolent Clear Cell Renal Cell Carcinoma Subtypes on CT

Karin Stacke , Indrani Bhattacharya , Justin R. Tse , James D. Brooks , Geoffrey A. Sonn , Mirabela Rusu

分类：计算机视觉

2022-09-29

肾细胞癌（RCC）是一种常见的癌症，随着临床行为的变化。懒惰的RCC通常是低级的，没有坏死，可以在没有治疗的情况下监测。激进的RCC通常是高级的，如果未及时检测和治疗，可能会导致转移和死亡。虽然大多数肾脏癌在CT扫描中都检测到，但分级是基于侵入性活检或手术的组织学。确定对CT图像的侵略性在临床上很重要，因为它促进了风险分层和治疗计划。这项研究旨在使用机器学习方法来识别与病理学特征相关的放射学特征，以促进评估CT图像而不是组织学上的癌症侵略性。本文提出了一种新型的自动化方法，即按区域（Corrfabr）相关的特征聚集，用于通过利用放射学和相应的不对齐病理学图像之间的相关性来对透明细胞RCC进行分类。 CORRFABR由三个主要步骤组成：（1）特征聚集，其中从放射学和病理图像中提取区域级特征，（2）融合，放射学特征与病理特征相关的放射学特征在区域级别上学习，并且（3）在其中预测的地方学到的相关特征用于仅使用CT作为输入来区分侵略性和顽固的透明细胞RCC。因此，在训练过程中，Corrfabr从放射学和病理学图像中学习，但是在没有病理图像的情况下，Corrfabr将使用CORFABR将侵略性与顽固的透明细胞RCC区分开。 Corrfabr仅比放射学特征改善了分类性能，二进制分类F1分数从0.68（0.04）增加到0.73（0.03）。这证明了将病理疾病特征纳入CT图像上透明细胞RCC侵袭性的分类的潜力。

translated by 谷歌翻译

Learning to Learn with Generative Models of Neural Network Checkpoints

William Peebles , Ilija Radosavovic , Tim Brooks , Alexei A. Efros , Jitendra Malik

分类：机器学习 | 计算机视觉

2022-09-26

我们探索一种以数据为基础的学习方法来优化神经网络。我们构建神经网络检查点的数据集，并培训有关参数的生成模型。特别是，我们的模型是一个条件扩散变压器，鉴于初始输入参数向量以及提示的丢失，误差或返回，可以预测实现所需度量的参数更新的分布。在测试时，它可以在一个更新中优化具有看不见的参数的神经网络。我们发现我们的方法成功地生成了各种损失提示的参数。此外，它可以采样多模式参数解决方案，并具有有利的缩放属性。我们将方法应用于监督和强化学习中的不同神经网络体系结构和任务。

translated by 谷歌翻译

Towards Healing the Blindness of Score Matching

Mingtian Zhang , Oscar Key , Peter Hayes , David Barber , Brooks Paige , François-Xavier Briol

分类： (统计)机器学习 | 机器学习

2022-09-15

基于分数的分歧已被广泛用于机器学习和统计应用。尽管他们的经验成功，但在将它们用于多模式分布时仍观察到了失明问题。在这项工作中，我们讨论了失明问题，并提出了一个新的分歧家庭，可以减轻失明问题。在密度估计的背景下，我们说明了我们提出的差异，与传统方法相比，报告的性能提高了。

translated by 谷歌翻译

Studying Bias in GANs through the Lens of Race

Vongani H. Maluleke , Neerja Thakkar , Tim Brooks , Ethan Weber , Trevor Darrell , Alexei A. Efros , Angjoo Kanazawa , Devin Guillory

分类：计算机视觉 | 机器学习

2022-09-06

在这项工作中，我们研究了生成图像模型的性能和评估如何受到其培训数据集的种族组成的影响。通过检查和控制各种培训数据集中的种族分布，我们能够观察不同培训分布对生成的图像质量和生成图像的种族分布的影响。我们的结果表明，生成的图像的种族组成成功地保留了培训数据。但是，我们观察到截断是一种用于在推断过程中生成更高质量图像的技术，加剧了数据中的种族失衡。最后，在检查图像质量与种族之间的关系时，我们发现给定种族的最高可感知的视觉质量图像来自该种族代表性很好的分布，并且注释者始终偏爱白人的生成图像，而不是黑人。

translated by 谷歌翻译

The ACII 2022 Affective Vocal Bursts Workshop & Competition: Understanding a critically understudied modality of emotional expression

Alice Baird , Panagiotis Tzirakis , Jeffrey A. Brooks , Christopher B. Gregory , Björn Schuller , Anton Batliner , Dacher Keltner , Alan Cowen

分类：人工智能

2022-07-07

ACII情感声音爆发研讨会和竞争的重点是理解声乐爆发的多个情感维度：笑声，喘息，哭泣，尖叫声以及许多其他非语言声音，这是情感表达和人类交流的核心。今年的比赛包括四首曲目，使用1,702位扬声器的大规模和野外数据集提供59,299个发声。首先是A-VB高任务，要求竞争参与者使用十个类似的注释的情感表达强度，对情感进行新型模型进行多标签回归，包括：敬畏，恐惧和惊喜。第二个是A-VB-TWO任务，利用更传统的二维模型来进行情感，唤醒和价值。第三个是A-VB文化任务，要求参与者探索数据集的文化方面，培训本地国家依赖模型。最后，对于第四个任务，A-VB型，参与者应认识到声乐爆发的类型（例如，笑声，哭泣，咕unt）是8级分类。本文介绍了使用最先进的机器学习方法的四个轨道和基线系统。每条轨道的基线性能是通过使用端到端深度学习模型获得的，如下所示：对于A-VB-高，平均（超过10维）一致性相关系数（CCC）为0.5687 CCC为获得;对于A-VB-TWO，获得了0.5084的平均值（超过2维）；对于A-VB培养物，从四个培养物中获得了0.4401的平均CCC；对于A-VB型，来自8类的基线未加权平均召回（UAR）为0.4172 UAR。

translated by 谷歌翻译

Generating Long Videos of Dynamic Scenes

Tim Brooks , Janne Hellsten , Miika Aittala , Ting-Chun Wang , Timo Aila , Jaakko Lehtinen , Ming-Yu Liu , Alexei A. Efros , Tero Karras

分类：计算机视觉 | 人工智能 | 机器学习 | 神经与进化计算

2022-06-07

我们提出了一个视频生成模型，该模型可以准确地重现对象运动，摄像头视图的变化以及随着时间的推移而产生的新内容。现有的视频生成方法通常无法生成新内容作为时间的函数，同时保持在真实环境中预期的一致性，例如合理的动态和对象持久性。一个常见的故障情况是，由于过度依赖归纳偏见而提供时间一致性，因此内容永远不会改变，例如单个潜在代码决定整个视频的内容。在另一个极端情况下，没有长期一致性，生成的视频可能会在不同场景之间不切实际。为了解决这些限制，我们通过重新设计暂时的潜在表示并通过较长的视频培训从数据中学习长期一致性来优先考虑时间轴。为此，我们利用了两阶段的培训策略，在该策略中，我们以低分辨率和高分辨率的较短视频分别训练了较长的视频。为了评估模型的功能，我们介绍了两个新的基准数据集，并明确关注长期时间动态。

translated by 谷歌翻译

GraphVAMPNet, using graph neural networks and variational approach to markov processes for dynamical modeling of biomolecules

Mahdi Ghorbani , Samarjeet Prasad , Jeffery B. Klauda , Bernard R. Brooks

分类：机器学习

2022-01-12

从诸如蛋白质折叠或配体 - 受体结合如蛋白质 - 折叠或配体 - 受体结合等生物分子过程的长时间轨迹的低尺寸表示是基本的重要性和动力学模型，例如Markov建模，这些模型已经证明是有用的，用于描述这些系统的动力学。最近，引入了一种被称为vampnet的无监督机器学习技术，以以端到端的方式学习低维度表示和线性动态模型。 Vampnet基于Markov进程（VAMP）的变分方法，并依赖于神经网络来学习粗粒度的动态。在此贡献中，我们将Vampnet和图形神经网络组合生成端到端的框架，以从长时间的分子动力学轨迹有效地学习高级动态和亚稳态。该方法承载图形表示学习的优点，并使用图形消息传递操作来生成用于VAMPNET中使用的每个数据点以生成粗粒化表示的嵌入。这种类型的分子表示结果导致更高的分辨率和更可接定的Markov模型，而不是标准Vampnet，使得对生物分子过程更详细的动力学研究。我们的GraphVampNet方法也具有注意机制，以找到分类为不同亚稳态的重要残留物。

translated by 谷歌翻译

A wearable sensor vest for social humanoid robots with GPGPU, IoT, and modular software architecture

Mohsen Jafarzadeh , Stephen Brooks , Shimeng Yu , Balakrishnan Prabhakaran , Yonas Tadesse

分类：机器人 | 人工智能

2022-01-06

目前，大多数社会机器人通过传感器与周围环境和人类相互作用，这些传感器是机器人的组成部分，这限制了传感器，人机相互作用和互换性的可用性。在许多应用中需要一种适合许多机器人的可穿戴传感器衣服。本文介绍了一个经济实惠的可穿戴传感器背心，以及带有物联网（物联网）的开源软件架构，用于社会人形机器人。背心由触摸，温度，手势，距离，视觉传感器和无线通信模块组成。 IOT功能允许机器人与人类和互联网一起与人类交互。设计的体系结构适用于任何具有通用图形处理单元（GPGPU），I2C / SPI总线，Internet连接和机器人操作系统（ROS）的任何社交机器人。此架构的模块化设计使开发人员能够轻松地添加/删除/更新复杂行为。所提出的软件架构提供IOT技术，GPGPU节点，I2C和SPI总线管理器，视听交互节点（语音到文本，文本到语音和图像理解），以及行为节点和其他节点之间的隔离。所提出的IOT解决方案包括机器人中的相关节点，RESTful Web服务和用户界面。我们使用HTTP协议作为与Internet的社会机器人双向通信的手段。开发人员可以在C，C ++和Python编程语言中轻松编辑或添加节点。我们的架构可用于为社会人形机器人设计更复杂的行为。

translated by 谷歌翻译